跳到主要内容

加速推理工具

Xinference 是什么?

Xinference 是一个分布式的模型推理框架

chatglm.cpp

chatglm.cpp 是一个 ChatGLM 的加速推理工具

检查有没有安装 cmake,如果没有则安装,则先安装 https://cmake.org/

把下面这个目录的文件

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\extras\visual_studio_integration\MSBuildExtensions

都丢到

C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations

修改 setup.py 文件

cmake_args = [
# 加上这个才能使用 GPU
f"-DGGML_CUBLAS=ON",
]

触发构建

pip install .

Reference